Introdução à Programação com Triton: Além das Operações Elementares: A Mudança para Operações Matriciais por Lotes

Nas lições anteriores, focamos em operações elementares (como uma ReLU básica em uma matriz). Essas são limitadas pela memória porque a GPU gasta mais tempo movendo dados da HBM para os registradores do que realizando cálculos matemáticos.

1. Por que o GEMM é Central

A Multiplicação Geral de Matrizes (GEMM) tem uma complexidade computacional de $O(N^3)$ enquanto exige apenas $O(N^2)$ acesso à memória. Isso nos permite ocultar a latência da memória por meio de um grande throughput aritmético, tornando-o o "pulso" dos modelos de linguagem grandes (LLMs).

2. Representação da Memória em 2D

A memória RAM física é unidimensional. Para representar um tensor bidimensional, usamos deslocamentos. Um erro comum em produção é assumir que um tensor é contíguo. Se você confundir os deslocamentos de linha e coluna em seus cálculos de ponteiros, poderá acessar dados "fantasma" ou provocar violações de memória.

3. Generalização por Lotes

O Triton generaliza a lógica elementar ao mudar de ponteiros simples para blocos de ponteiros. Usando blocos 2D (por exemplo, $16 \times 16$), exploramos reutilização de dados na SRAM de alta velocidade, mantendo os dados "quentes" para operações combinadas como adição de viés ou ativações antes de gravá-los de volta na memória global.

TERMINALbash — 80x24

> Ready. Click "Run" to execute.

QUESTION 1

Why is an elementwise ReLU on a large matrix considered 'memory-bound'?

The ReLU function requires complex transcendental math.

The ratio of arithmetic operations to memory loads is very low (1:1).

Matrices are naturally stored in CPU memory only.

Triton cannot process non-linear activations.

QUESTION 2

What is the result of 'The Stride Trap' in production kernels?

The kernel runs significantly faster but with less precision.

Memory access violations or corrupted output due to incorrect address calculation on non-contiguous tensors.

The GPU automatically corrects the indexing using L2 cache.

The tensor is forced into a 1D shape by the compiler.

QUESTION 3

How does Triton represent a 2D tile of pointers?

By using a nested Python list of integers.

By broadcasting a 1D column vector and a 1D row vector of offsets together.

By launching multiple 1D kernels sequentially.

By allocating a special 2D register file.

QUESTION 4

Which operation benefits most from the O(N³) complexity shift to hide memory latency?

Vector Addition

Matrix Multiplication (GEMM)

Sigmoid Activation

Global Average Pooling

QUESTION 5

List three kernels in your current workflow that launch multiple PyTorch ops and might benefit from fusion.

Linear -> Bias -> ReLU; LayerNorm -> Dropout; Softmax -> Masking.

Print -> Log -> Sleep.

DataLoader -> Augmentation -> Storage.

These ops cannot be fused in Triton.